当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过“视觉-语义-对话”历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model), MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47。为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标。在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70。
伪装目标分割(COS)的目标是从背景中分离出隐藏的目标对象。近年来,基于卷积神经网络(CNN)的伪装目标检测(COD)发展迅速,然而仍存在无法从前/背景高度相似的场景中准确地检测出完整目标对象的问题。针对上述问题,提出一种基于通道注意力(CA)和边缘融合的COS方法CANet (Network based on Channel Attention and edge fusion),以得到伪装目标的边缘细节更清晰的完整分割结果。首先,引入压缩和激励(SE)注意力模块,以提取更丰富的高级语义特征;其次,提出一个边缘融合模块,抑制低级特征中的干扰,并充分利用图像的边缘细节信息;最后,设计了基于深度可分离卷积的通道注意力模块,以自上而下的方式逐步融合跨级的多尺度特征,进一步地提升检测精度和效率。在多个公开的COD数据集上的实验结果表明,相较于SINet (Search Identification Net)、TINet (Texture-aware Interactive guidance Network)和C2FNet (Context-aware Cross-level Fusion Network)等8种主流的方法,CANet表现更佳,且能够获取到丰富的伪装目标内部及边缘细节信息,而且在具有挑战性的COD10K数据集上结构度量指标相较于SINet提升了2.6个百分点。CANet性能优越,适用于医学上检测与人体组织相似的病灶区域、军事领域检测隐蔽目标等相关领域。
英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模型精确匹配率变低。针对迁移过程中出现的问题,提出了对应的解决方法并构建修改后的模型。首先,在数据使用过程中融入工厂元数据信息以解决表示形式不一致以及列名隐含在语义中的问题;然后,根据中文语言表达方式的特性,使用基于相对位置的自注意力模型直接通过问句以及数据库模式信息识别出where子句的value值;最后,根据工业问句查询内容的特性,使用微调后的基于变换器的双向编码器表示技术(BERT)对问句进行分类以提高模型对SQL语句结构预测的准确率。构建了一个基于铝冶炼行业的工业数据集,并在该数据集上进行实验验证。结果表明所提模型在工业测试集上的精确匹配率为74.2%,对比英文数据集Spider上各阶段主流模型的效果后可以看出,所提模型能有效处理中文工业Text-to-SQL任务。